home *** CD-ROM | disk | FTP | other *** search
/ Collection of Internet / Collection of Internet.iso / infosrvr / doc / www_talk.arc / 000152_timbl _Fri Jun 26 15:35:05 1992.msg < prev    next >
Internet Message Format  |  1992-11-30  |  6KB

  1. Return-Path: <timbl>
  2. Received: by  nxoc01.cern.ch  (NeXT-1.0 (From Sendmail 5.52)/NeXT-2.0)
  3.     id AA04694; Fri, 26 Jun 92 15:35:05 MET DST
  4. Date: Fri, 26 Jun 92 15:35:05 MET DST
  5. From: timbl (Tim Berners-Lee)
  6. Message-Id: <9206261335.AA04694@ nxoc01.cern.ch >
  7. To: connolly@pixel.convex.com, timbl@nxoc01.cern.ch
  8. Subject: Re: HTML DTD
  9. Cc: www-talk@nxoc01.cern.ch
  10.  
  11. Dan, you say
  12.  
  13. <<
  14. I suppose you could come up with a DTD that describes something
  15. close to the current HTML, but I'm not sure of the value of it.
  16. HTML allows tags to be pretty much sprinkled wherever you feel
  17. like putting them. Any DTD that allows that much leeway just
  18. looks like this:
  19.  
  20.         <!ENTITY % alltags "TITLE|H1|H2|H3|MENU|OL|UL">
  21.         <!ELEMENT %alltags (%alltags)*>
  22.  
  23. i.e. every element is just a repeatable or-group of all the elements.
  24. Then the SGML parser can't do any minimization cuz nothing's required. >>
  25.  
  26. Yes, current SGML currently is just a linear sequence of
  27. elements. (Sorry, current HTML -- I'm typing this in serially
  28. and can't edit!).  There is a reason for this:  it is very
  29. convenient for HTML to map onto a series of styles -- for two
  30. reasons.
  31.  
  32. Firstly, a lot of rich text objects can hold styles but can't hold
  33. structure.  You can deduce structure from the styles -- like
  34. Word deucing outlining from Heading styles, and WWW deducing
  35. a list <UL> from a lot of <LI> paragraphs. But you can't go
  36. very far.  If you want to make a HT editor out of such a
  37. text object, you ahve to regenerate the elements from the
  38. styles.
  39.  
  40. Secondly, it may be that the wysiwyg editors have a linear style
  41. structure because that is intuitive to people. I don't know
  42. a lot of people who use author/editor (which maintains
  43. structure). Maybe real people actually think in terms of styles
  44. and fix the document to look right, then they are happy to have the
  45. structure deduced.
  46.  
  47. So if we went for a nestable HTML which would be cleaner for
  48. those who apreciate recursion, we would have to have a hypertext
  49. editor which made the structure visible.  I don't have experience
  50. enough to know whether real information providers (group secretaries,
  51. for example) would be into generating nested elements -- maybe
  52. the styles are useful to keep as the current `user interface metaphor'
  53. of word processors.
  54.  
  55. (It also makes making the editor easier!)
  56.  
  57. Or maybe we should have two levels of DTD -- one basically linear
  58. and mandatory (and precompiled for fast access) and one more
  59. sophisticated for larger documents.
  60.  
  61. Of course, when you are writing hypertext the large documents are
  62. normally broken down into small bits to make traveing them quick.
  63. So whereas each hypertext node may contain only H1 and H2 headings,
  64. when a book is generated a la the_www_book.ps you get 5 levels
  65. of heading from the whole tree.
  66.  
  67. So that is why the HTML strcuture is so simple. I am open to
  68. a more sophisticated alternative.
  69.  
  70. Tim
  71. ____________________________
  72. From connolly@pixel.convex.com Fri Jun 26 00:00:33 1992
  73. Return-Path: <connolly@pixel.convex.com>
  74. Received: from dxmint.cern.ch by  nxoc01.cern.ch  (NeXT-1.0 (From Sendmail 5.52)/NeXT-2.0)
  75.     id AA02722; Fri, 26 Jun 92 00:00:27 MET DST
  76. Received: by dxmint.cern.ch (dxcern) (5.57/3.14)
  77.     id AA25540; Fri, 26 Jun 92 00:00:11 +0200
  78. Received: from pixel.convex.com by convex.convex.com (5.64/1.35)
  79.     id AA10700; Thu, 25 Jun 92 17:00:01 -0500
  80. Received: from localhost by pixel.convex.com (5.64/1.28)
  81.     id AA05209; Thu, 25 Jun 92 17:00:00 -0500
  82. Message-Id: <9206252200.AA05209@pixel.convex.com>
  83. To: timbl@nxoc01.cern.ch (Tim Berners-Lee)
  84. Subject: Re: HTML DTD 
  85. In-Reply-To: Your message of "Thu, 25 Jun 92 23:07:25 +0700."
  86.              <9206252107.AA02534@ nxoc01.cern.ch > 
  87. Date: Thu, 25 Jun 92 16:59:59 CDT
  88. From: Dan Connolly <connolly@pixel.convex.com>
  89. Status: R
  90.  
  91.  
  92. >thanks for that contribution.   Not being as hot on SGML
  93. >as I ought to be, I don't see why the HREF has to refer to
  94. >and entity declared separately rather than directly having
  95. >a string argument.
  96. >
  97. That's actually left over from when I was trying to point
  98. HREF attributes to MIME attachments. It's not really
  99. necessary to move the UDIs into entities as long as you're
  100. careful that the UDI syntax is a subset of the SGML
  101. attribute literal syntax.
  102.  
  103. Beware, for example, that an
  104. SGML parser will expand entity references in an attribute literal
  105. to produce the CDATA for the attribute value. So that
  106. <A HREF="A&P"> might be OK for the linemode browser,
  107. but an SGML parser will try to resolve &P.
  108.  
  109. Also, SGML attribute values have a maximum length specified
  110. in the SGML declaration. The default value is 960 or something
  111. around there.
  112.  
  113. >The title is in fact optional currently, by the way ...
  114. >we could keep it so though it "ought" always to have one.
  115. >
  116. >I'd like a DTD which as closely reflects the current HTML as
  117. >possible.
  118.  
  119. I suppose you could come up with a DTD that describes something
  120. close to the current HTML, but I'm not sure of the value of it.
  121. HTML allows tags to be pretty much sprinkled wherever you feel
  122. like putting them. Any DTD that allows that much leeway just
  123. looks like this:
  124.  
  125.     <!ENTITY % alltags "TITLE|H1|H2|H3|MENU|OL|UL">
  126.     <!ELEMENT %alltags (%alltags)*>
  127.  
  128. i.e. every element is just a repeatable or-group of all the elements.
  129. Then the SGML parser can't do any minimization cuz nothing's required.
  130.  
  131. > Then, if we change HTML to HTML2, I would
  132. >change it in a number of ways, in particular to include
  133. >separate header and body parts.  I have come across the
  134. >"Davenport" group of publishers who are defineing DTDs for
  135. >technical documentation.  They include Steve Newcombe who
  136. >is the HyTime guy (or one of the two I should say).
  137. >I would like to get some input from them.
  138. >
  139.  
  140. Certainly we should keep tabs on things like the Davenport
  141. group and HyTime.
  142.  
  143. But my immediate concern is these little sytactic differences
  144. that render HTML documents worthless to an SGML parser. The
  145. current HTML and UDI syntax make a good proof of concept, but
  146. we need to move toward formal definitions so that we can
  147. have confidence that correct implementations will interoperate.
  148.  
  149. More later...
  150.  
  151. Dan
  152.